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摘要 : 采用 图 形 处 理 器 和 最 新 的 通用 并 行 计 算 架 构 设 计 了 射电 天 文 多 相 滤波 器 组 ， 并 对 
其 性 能 指标 进行 了 测试 和 分 析 。 利 用 图 形 处 理 器 强大 的 浮 点 数 计算 和 高 效 并 行 执行 能 力 实 现 
了 多 相 滤 波 器 、 快 速 傅 里 叶 变换 算法 加 速 ， 改 善 了 多 相 滤波 器 组 算法 的 执行 效率 。 实 验 结果 
表明 ， 设 计 的 多 相 滤波 器 组 具有 一 定 的 灵活 性 和 可 扩展 性 ， 能 够 实现 射电 信号 的 高 速 滤波 及 
训 道 化 ， 可 有 效 提高 射电 望远镜 数字 终端 算法 的 并 行 数据 处 理 能 力 和 计算 效率 。 
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基于 中 央 人 处理 带 的 多 相 滤 波 兹 组 设计 ， 由 于 算法 本 号 的 复杂 度 和 计算 量 ， 导 致 仿真 消耗 时 间 长 量 
执行 效率 低 。 借 助 图 形 处 理 需 高 效 的 并 行 执行 能 力 与 通用 并 行 计 算 架 构 ( Compute Unified Device 
Architecture, CUDA) [1] 的 高 性 能 并 行 架 构 ， 能 够 有 效 地 改善 多 相 滤 波 需 组 算法 在 高 速 数 据 处 理 方面 效 
率 低下 的 问题 。 

通用 并 行 计算 架 构 是 一 种 由 NVIDIA 公司 开发 的 并 行 编程 模型 ， 可 加 速 图 形 处 理 需 的 高 速 并 行 处 
理 、 高 效 解决 海量 上 且 逻 辑 简单 的 计算 问题 ， 包 含 指令 集 架 构 以 及 图 形 处 理 需 内 部 的 并 行 计 算 引 擎 ” 。 
图 形 处 理 器 计算 能 力 的 迅速 发 展 已 超过 摩尔 定律 " ， 目 前 主流 图 形 处 理 器 的 单 精 度 浮 点 处 理 能 力 和 外 
部 存储 右 涡 客 相 对 于 中 央 人 处 理 各 有 明显 的 优势 ， 通 用 并 行 计算 染 构 在 编程 、 优 化 等 方面 都 得 到 了 显著 
的 提升 ， 大 大 增强 了 图 形 处 理 顺 的 通用 计算 能 力 。 

随 着 并 行 处 理 技术 的 发 展 ， 图 形 处 理 需 已 成 了 实时 处 理 天 文 信号 的 首选 。 射 电 望 远 镜 数字 终 
端 ” 通过 多 相 滤波 器 进行 分 通道 、 滤 波 并 有 效 控制 快速 傅 里 叶 变 换 产 生 的 频谱 泄露 ， 多 相 滤波 器 是 
数字 滤波 器 组 的 一 种 高 效 实现 形式 。 近 年 来 ， 多 相 滤 波 技术 在 射电 望远镜 终端 设备 开发 中 得 到 了 
广泛 应 用 ， 例 如 脉冲 星 终端 、 消 色散 系统 、 相 关 需 及 数字 频谱 仪 等 。 图 形 处 理 器 和 通用 并 行 计 算 架 构 
技术 为 多 通道 射电 天 文 多 相 滤波 器 组 设计 提供 了 一 种 高 速 实 现 的 途径 。 


1 多 相 滤 波 硕 组 原理 


出 电 天 文 多 相 滤 波 作 组 主要 由 多 个 分 解 的 有 限 长 单位 冲 激 啊 应 ( Finite Impulse Response，FIR ) 滤 
波 硕 和 快速 传 里 叶 变 换 组 成 ， 处 理 过 程 包含 频 详 转移、 抽取、 滤波 、 人 快速 传 里 叶 变 换 等 。 分 解 的 有 限 
长 单位 冲 激 啊 应 滤波 天 跟 其 他 数字 滤波 豆 相 比 有 许多 优点 ， 性 能 稳定 ， 可 实现 严格 的 线性 相位 和 任意 
幅度 “” 。 多 相 滤波 器 组 的 基本 原理 如 图 1。 

滤波 带 组 中 的 多 相 分 解 将 数字 滤波 带 的 冲击 响应 函数 分 解 为 多 个 不 同 的 相位 进行 处 理 ， 将 复杂 多 
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阶 的 滤波 器 简化 为 多 个 低 阶 的 滤波 器 ， 提 高 运算 速率 。 
有 限 长 单位 冲 激 响应 滤波 器 的 转移 消 数 表达 式 为 
H(z) = 2 h(h)z™ 
-0 thls Fm (1) 


其 中 ，N 为 滤波 器 长 度 。 将 H(z) 分 解 成 组 , 设 NAD=0， 且 0 取 整 数 ， 可 以 得 到 ， 
H(z) 三 h(0)z 十 h(D)z™” 平 :二 5 主 h| (0 至 1) 万 ]z-(0-02 


0-1 Q-1 QO-1 
= PhanD +0)(2)" tz! hnD+1)(2) "+ tz YD hnD+D-11)(z)*, (2) 
n=0 n=0 n=0 
O-1 
令 E(z)= 2 h(nD +h) (2) ,k=0, 2,，3,…, D-1, 则 (2) 式 改写 为 
k=0 
所 x(n) y(n) 
H(z) ,Ei(z?) 2 5 (3) 一 一 一 Eo(2) OO————> L-0 > 
k=0 Zl 
其 中 ，E,(z?) 表 示 有 (z) 的 多 相 分 量 。 Fo HBG | FF 
采用 离散 傅 里 叶 变 换 ( Discrete Fourier Trans- 2 
ee Ne DE ED > y(n) 
fom, DPT) 对 分 解 的 有 限 长 单位 冲 激 响 应 滤波 进 。 如 er 
行 变 换 ， 获 得 输入 信号 的 频谱 响应 。 输 入 信号 x FL29 EAWNR 
(n) 的 离散 传 里 叶 变 换 如 (4) 式 ,产生 频谱 系数 
X(k) ， 其 中 ke [0, N-1]。 原 来 的 信号 x*(n) 也 区 a 
可 以 通过 频谱 系数 合成 获取 ， 如 (5) 式 。 iD HBO > 一 


le > ale 


1 N-1 | 
x[n] es (5) 
n=0 


对 信号 进行 快速 全 里 叶 变换 处 理 时 ， 输 入 信 
号 的 时 域 和 频 域 都 是 离散 的 ， 并 且 都 是 有 限 长 。 
因此 必须 对 实际 模拟 信号 进行 采样 并 在 时 间 上 截 
取 一 定 片段 ”， 然 后 用 离散 传 里 叶 变换 算法 对 
信号 进行 分 析 。 实 际 信号 处 理 时 ， 人 快速 传 里 叶 变 
换 作 周 期 性 延 拓 ， 因 为 数字 终端 处 理 的 数据 是 有 
限时 间 段 内 ， 而 快速 傅 里 叶 变 换 要 求 时 间 从 负 无 
穷 到 正 无 穷 的 积分 。 


2 多 相 滤波 着 组 设计 与 性 能 测试 


基于 通用 并 行 计算 架构 的 射电 天 文 多 相 滤波 
融 组 设计 流程 如 图 2。 中 央 处 理 器 和 图 形 处 理 需 
协调 完成 多 相 滤波 ， 中 央 处 理 需 负责 逻辑 控制 和 
串 行 相关 的 工作 ， 图 形 处 理 器 则 负责 高 度 并 行 的 
数据 处 理 任务 。 首 先 中 央 处 理 咒 完成 初始 化 、 准 
备 待 处 理 的 数据 ，cudaMalloc( ) 创建 图 形 处 理 器 
的 内 存 空间 ，cudaMemcpy( ) 函数 把 数据 从 中 央 
处 理 融 复 制 到 图 形 处 理 需 显存 ， 然 后 启动 CUDA 
kernel 对 算法 进行 并 行 处 理 。 为 了 加 速算 法 ， 提 


图 1 多 相 滤波 器 组 结构 图 
Fig. 1 Structure chart of the Polyphase filter bank 
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图 2 基于 通用 并 行 计算 架构 的 多 相 滤 波 器 组 的 实现 流程 图 
Fig.2 Flow chart of the polyphase filter bank 
implementation based on CUDA 
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前 生成 基于 窗口 男 数 的 多 相 滤波 需 组 系数 ， 然 后 将 系数 传输 到 网 形 处 理 需 共享 内 存 ， 把 数据 跟 多 相 滤 
波 系数 相 乘 实现 有 限 长 单位 冲 激 响 应 滤波 ， 再 进行 快速 傅 里 叶 变 换 ， 最 后 将 数据 从 图 形 处 理 器 显存 复 
制 到 中 央 处 理 需 内 存 ， 显 示 处 理 结果 。 人 快速 傅 里 叶 变 换 使 用 通用 并 行 计 算 架 构 的 cuFFTlibrary®, 
cuFFT 能 够 快速 实现 离散 傅 里 叶 变 换 。 在 设计 中 使 用 cuFFT 的 cufftExecC2C( ) 函数 并 行 高 速 实现 快速 
傅 里 时 变换 算法 。 

cuFFT 是 通用 并 行 计算 架构 快速 傅 里 叶 变换 库 ， 可 大 幅 提高 快速 傅 里 叶 变换 的 速度 ， 速 度 最 高 提 
升 10 倍 。cuFFT 提供 一 个 简单 的 编程 接口 ， 能 够 对 复数 与 实数 一 维 、 二 维和 三 维 变换 ， 一 维 变换 最 
大 为 1. 28 亿 个 元 素 ， 可 以 单 精 度 和 双 精 度 变 换 ， 数 据 布局 灵活 。 

设计 中 为 了 减少 快速 傅 里 叶 变 换 处 理 过 程 的 频谱 泄漏 ， 添 加 窗口 函数 对 信号 进行 处 理 ， 图 3 是 汉 
明 ( Hamming) 窗 口 的 有 限 长 单位 冲 激 响 应 滤波 右 脉 冲 响应 及 频率 响应 。 


0.07 FIR Filter Coefficients 10 Frequency Response (dB) 
0.06 0 
0.05 -10 
0.04 -20 
0.03 -30 
0.02 -40 
0.01 -50 
0 -00 
-70 
-80 

0 20 40 60 80 100 120 140 0 0.5 1 ].5 2.0 .3 3 3.5 


图 3 汉 明 窗口 的 有 限 长 单位 冲 激 响应 滤波 器 
Fig. 3 FIR filter based on hamming window 
多 相 滤波 顶 组 和 普通 的 快速 伟 里 时 变换 相 比 可 以 更 有 效 地 进行 通关 化 ， 消 除 频谱 泄露 。 对 8- 
Tap 、32 通道 多 相 滤波 带 的 仿真 结 末 如 图 4、 图 5。 多 相 滤 波 吉 组 通道 N/2 点 对 称 ，32 通道 的 多 相 滤 
波 器 ，32/2 = 16 点 对 称 。 
0 Filter Bank Frequency Response 
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图 4 多 相 滤波 器 组 频谱 响应 
Fig.4 Frequency response of the polyphase filter bank 
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图 5 多 相 滤波 器 组 通道 
Fig.5 Polyphase filter bank channels 


射电 天 文 多 相 滤波 锅 组 的 设计 、 实 验 和 测试 环境 如 表 1， 测 试 中 所 用 的 软件 和 硬件 环境 包括 
Ubuntu 14. 04 操作 系统 ，Nsight Eclipse，IntelXeonE5 中 央 处 理 顺 ，NVIDIA Quadro K620 图 形 处 理 需 ， 
8 GB 内 存 等 。 
表 1 图 形 处 理 器 和 通用 并 行 计算 架 构 参数 表 
Table 1 GPU and CUDA parameters 


Name Parameter 

Dervice Quadro K620 

CUDA Driver Version/ Runtime Version 7.5/7.5 

Total amount of global memory 2 047 Mbytes (2 146 762 752 bytes) 
CUDA Cores 384 CUDA Cores 

Memory Bus Width 128-bit 

Warp size 32 

Maximum number of threads per block 1 024 

Max dimension size of a thread block (x, y, z) (1024, 1024, 64) 

Max dimension size of a grid size (x, y, 7z) (2 147 483 647, 65 535, 65 535) 
Total amount of shared memory per block 49 152 bytes 


为 了 验证 基于 通用 并 行 计算 架 构 的 射电 天 文 多 相 滤 波 融 组 性 能 ， 针 对 不 同 通道 的 多 相 滤波 需 组 的 
输出 、 吞 吐 量 及 数据 处 理 消 耗 时 间 进 行 了 测试 和 分 析 。 首 先生 成 32 MB、 采样 频 率 128 MHz 、8 bit 双 
极 化 的 加 噪声 复数 信号 ， 然 后 将 数据 从 内 存 传输 到 图 形 处 理 需 中 ， 使 用 多 相 滤波 占 组 进行 处 理 。 运 算 
中 将 8 bit 数据 转换 为 单 精 度 浮 点 数 ， 每 组 数据 进行 多 相 滤 波 器 及 快速 傅 里 时 变换 运算 ， 最 后 将 
输出 数据 求 平方 根 ， 得 出 能 量 谱 ， 并 从 图 形 处 理 器 传输 到 内 存 ， 显 示 处 理 结果 。 实 验 中 tap=8， 使 用 
6 144 个 图 形 处 理 需 物理 线程 ， 实 验 结 果 如 图 6、 图 7。 

图 6、 图 7 是 多 相 滤波 器 组 通道 数 1K 和 1024K 的 频谱 输出 ， 当 Channel=1K 时 ， 由 于 噪声 干扰 
的 影响 ， 输 出 的 能 量 谱 不 是 很 理想 ， 但 是 随 着 通道 数 的 增加 ， 多 相 滤 波 顺 组 的 输出 分 辩 率 提高 ， 信 和 号 
检测 能 力 增 强 。 
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图 6 1024 通道 多 相 滤 波 器 组 输出 
Fig.6 Output of the polyphase filter bank with 1 024 channels 
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图 7 1048576 通道 多 相 滤波 器 组 输出 
Fig.7 Output of the polyphase filter bank with 1 048 S76 channels 


图 8 是 多 相 滤波 器 组 通道 数 及 吞吐 量 之 间 的 变化 曲线 。 多 相 滤波 器 组 的 知 吐 量 随 通道 数 的 增加 而 
提高 ， 当 通道 数量 为 65 536 时 ， 否 吐 量 最 高 ， 然 后 开始 下 降 趋 势 。 
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Polyphase Filter Bank Channels 
图 8 多 相 滤波 器 组 通道 数 和 吞吐 量 的 关系 


Fig.8 Throughput capacity variations as a function of channel number 
如 图 9， 算 法 在 数据 传输 、 多 相 滤 波 融 及 快速 传 里 叶 变 换 运算 处 理 三 方面 时 间 消 耗 较 大 。 而 随 着 


通道 数 的 增加 ， 多 相 滤波 需 组 的 平均 数据 处 理 时 间 趋 势 减 少 。1K 通道 多 相 滤 波 絮 及 快速 傅 里 叶 变 换 占 
用 的 时 间 约 为 308 ms 、580 ms， 当 Channel=1 024 时， 它们 的 数据 处 理 时 间 分 别 为 是 7 ms、13 ms。 
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图 9 多 相 滤波 器 组 通道 数 和 数据 处 理 消耗 时 间 


Fig.9 Data processing time variations as a function of channel number 


多 相 滤 波 融 组 的 数据 人 处理 主要 消耗 时 间 体 现在 快速 传 里 叶 变 换 、 多 相 滤 波 絮 的 运算 和 将 数据 从 图 
形 处 理 带 显存 传输 到 中 央 处 理 吉 内 存 的 过 程 中 。 当 通 着 数 为 1K~16K 时 ， 数 据 处 理 时间 减 少 趋势 明 
显 ， 然 后 减少 趋势 放 缓 。 实 验 及 测试 结果 表明 ， 通 用 并 行 计算 架构 能 够 高 速 实现 多 通道 冉 电 天 文 多 相 
滤波 带 组 。 通 过 通用 并 行 计算 架构 技术 可 加 速算 法 ， 提 高 百 万 通道 数 的 并 行 处 理 速度 ， 该 设计 能 够 很 
好 地 满足 数字 终端 对 信号 的 信道 化 与 快速 处 理 的 需求 。 


3 结 论 


基于 通用 并 行 计算 染 构 实现 的 冉 电 天 文 多 相 滤 波 带 组 ， 充 分 利用 图 形 人 处理 占 的 多 线程 、 多 核 并 行 
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执行 能 力 ， 大 幅 提 升 了 滤波 器 组 实时 处 理性 能 。 针 对 计算 量 较 大 的 滤波 、 快 速 傅 里 叶 变 换算 法 应 用 通 
用 并 行 计算 架构 编程 实现 了 算法 的 并 行 化 ， 并 对 其 吞吐 量 、 数 据 处 理 消耗 时 间 及 不 同 通 道 输出 的 功率 
谐 进 行 测 试 及 相关 的 优化 。 设 计 的 多 相 滤波 带 组 易于 扩展 和 升级 ， 采 用 通用 并 行 计算 架构 加 速 多 相 滤 
波 ， 提 高 了 算法 的 计算 效率 。 
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Abstract: A Polyphase filter bank is designed with the GPU and the latest NVIDIA CUDA parallel 
architecture for radio astronomy and its performance is tested and analyzed. Both GPU’s powerful floating-point 
calculations and high performance parallel execution capabilities are adopted in this design and they accelerate 
PFB and FFT algorithms, therefore improve the efficiency of the filter bank. Experiment results show that the 
polyphase filter bank designed in this paper has certain flexibility and extensibility; it can implement high- 
speed filtering and high-speed channelization and improve computing efficiency and parallel data processing 
capability for astronomical digital backend algorithms. 
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